import cv2
import logging
from paddleocr import PaddleOCR

# 关闭PaddleOCR相关的日志信息
paddleocr_logger = logging.getLogger('ppocr')
paddleocr_logger.setLevel(logging.WARNING)

if __name__ == '__main__':
    ocr = PaddleOCR(use_angle_cls=True, lang="ch", ocr_version='PP-OCRv4')
    image_input_fullname = '01.pdf'
    img = cv2.imread(image_input_fullname)
    
    print(type(img))
    
    result = ocr.ocr(img, cls=True)
    # print(result)
    
    extracted_text = []
 
    # 遍历OCR结果，提取文本
    for line in result:
    # line是一个包含多个字段的列表，第二个元素是文本内容
        for word_info in line:
            text = word_info[1][0]  # 提取文本
            extracted_text.append(text)
 
    # 将提取的文本合并为一个字符串，保持换行
    final_text = '\n'.join(extracted_text)
 
    # 打印最终的文本
    print(final_text)
 